12-2 ⅸs

資料編修（data editing）的主要概念乃在於透過自動化的方式移除資料點中可能的雜訊點，這些雜訊通常都發生於不同類別資料分佈的交界處。圖6-1.a：資料編修如圖6-1.a所示，左側為原始資料，在群與群的交接處存在著若干可能的雜訊點（黃色圓圈中的資料點），這些雜訊可能導致往後分類的不易或錯誤。倘若我們將這些可能的雜訊移除（如圖6-1.a右側所示），不同類別的資料間彷彿開出了一道防火巷，我們便可以很輕易地定義出一條分界線將不同的類別資料分開。整個資料編修的流程可概述如下： 1. 隨機選取任一點A，並尋找與A最接近的一點B（如圖6-1.a左側劃底線兩點）。 2. 假如A與B屬於同一類，則重複步驟一。 3. 假如A與B屬於不同類，則移除A、B中任意一點。在步驟三中，我們可以加入些許經驗法則來辨別A、B間何者較有可能是雜訊點。在移除A或B之間，我們先求A與同類資料點中最接近的一點間的距離為Dist（A）；求B與同類資料點中最接近的一點間的距離為Dist（B）。假如Dist（A）< Dist（B)，表示B離同類的資料較遠，因此B比較可能是雜訊點；反之，Dist（A）> Dist（B)，表示A離同類的資料較遠，因此A比較可能是雜訊點。範例：圖6-1.b：資料編修過程（步驟一）圖6-1.c：資料編修結果
Data Clustering and Pattern Recognition (資料分群與樣式辨認)